SPSS 数据准备 4 – 指定缺失值
By Ruben Geert van den Berg under Data Preparation
4. 用户缺失值 (User Missing Values) 的存在
(概述和数据文件可以在这里找到)
用户缺失值是我们想要从分析中排除的值。我们通过在 SPSS 中将(范围)值指定为“缺失”来实现这一点。对于有序变量 (Ordinal Variables),我们通常排除诸如“不知道”或“不适用”之类的答案。对于度量变量 (Metric Variables),我们排除不合理的值,通常是非常高或非常低的值。
那么,我们如何知道一个变量是否包含任何需要指定为缺失的值呢?对于有序变量,我们运行带有条形图的频数表 (Frequency Tables with Bar Charts);对于度量变量,我们运行直方图 (Histograms)。让我们看一些例子。
SPSS 频数表与条形图语法 (SPSS Frequency Table with Bar Chart Syntax)
我们首先看一下 q2
。由于这是一个有序变量,我们将使用下面的语法生成其频数表和条形图。
***1. 在表格中显示值和值标签 (Value Labels).
**
set tnumbers both.
***2. 对 q2 运行频数表和条形图.
**
frequencies q2/barchart.
结果
首先,请注意,较高的值对应于对酒店设施更为积极的态度。然而,6(“没有答案”)并不比 5(“非常好”)更积极。因此,我们通过运行 missing values q2 (6)
将其指定为缺失值。如果我们现在重新运行条形图,我们将看到“没有答案”已按照预期从条形图中排除。
SPSS 直方图语法 (SPSS Histogram Syntax)
现在,我们将检查是否需要为 rprice
指定任何用户缺失值。由于它是一个度量变量,我们将通过运行 frequencies rprice/histogram
来检查其直方图。结果如下所示,看起来非常奇怪;似乎有些人为他们的房间支付了 999,999 欧元。另请注意,此时的平均房价似乎是 3400 欧元。
这里的问题是 999999 可能是一个代码,表示房价未知,而不是 999,999 欧元。因此,我们将通过运行 missing values rprice (999999)
将其指定为缺失值。如果我们现在重新运行直方图,它就变得有意义了,并报告平均房价约为 80 欧元。
5. 每个变量的缺失值
(概述和数据文件可以在这里找到)
我们之前建议为所有分类变量运行带有条形图的频数表,并为所有度量变量运行直方图。我们这样做是为了检查是否需要指定任何用户缺失值。完成此操作后,我们检查每个变量的缺失值数量(无论是用户缺失值还是系统缺失值 (System Missing))。具有许多缺失值的变量通常是不受欢迎的,有时会被删除或从分析中排除。
例如,让我们检查 q3
。由于它是一个有序变量,我们将运行频数表和条形图,使用 frequencies q3/barchart
。
结果
请注意,所有值中有 96.5% 是系统缺失值。我们只有很少的实际答案,我们可以考虑完全删除此变量。